Trainable Greedy Decoding for Neural Machine Translation

Motivation

目前的研究主要集中在训练阶段，对解码过程本身的研究仍停留在贪心和 beam search 的阶段。

本文提出 trainable greedy decoding 的概念，针对解码目标、翻译模型不唯一的问题，设计了一个通用的解码算法。该算法能在翻译模型已经训练完成的基础上，针对不同的解码目标（不仅是 log-probability）进行训练。

Methods

Trainable Greedy Decoding

作者从 noisy, parallel approximate decoding (NPAD) algorithm 得到启发，该算法在计算 hidden states 时，对每个隐状态加入一个高斯噪音，得到了 log-probability 更高的翻译结果。作者认为这一结果说明对 hidden state 进行操作能够找到一个渐进复杂度不变却能得到更好结果的解码算法。

作者将它的算法称为 agent $\pi$ ，其参数记为 $\phi$，则训练目标为